面向機器學習的自然語言標註 (Natural language annotation for macbhine learning) 書籍資訊、閱讀筆記、書籍評論與評分

內容描述

自然語言理解是人工智能的一個重要分支，主要研究如何利用電腦來理解和生成自然語言。本書重點介紹了自然語言理解所涉及的各個方面，包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基於語段的機器翻譯方法、內識別與文本過濾、機器翻譯的評測等，既有對基礎知識的介紹，又有對新研究進展的綜述，同時還結合了作者（JamesPustejovsky，生成詞庫理論的創始人）多年的研究成果。本書內容全面、詳略得當，結合實例講解，使讀者更易理解。
編輯推薦
《面向機器學習的自然語言標註》內容全面、詳略得當，結合實例講解，使讀者更易理解。自然語言理解是人工智能的一個重要分支，主要研究如何利用計算機來理解和生成自然語言。
名人推薦
“語言標註是自然語言處理的一個關鍵部分，但是現有的計算語言學課程卻少有涉及。本書是難得的一本從實踐角度討論自然語言標註，並且以服務於機器學習算法為目的來考察標註規格與設計的專著。它必將成為本科生和研究生計算語言學課程的一個標準。”
——Nancy Ide瓦薩學院計算機科學系教授

目錄大綱

前言1
第1章基礎知識7
1.1語言標註的重要性7
1.1.1語言學描述的層次8
1.1.2什麼是自然語言處理9
1.2語料庫語言學簡史10
1.2.1什麼是語料庫13
1.2.2語料庫的早期應用15
1.2.3當今的語料庫17
1.2.4標註類型18
1.3語言數據和機器學習24
1.3.1分類25
1.3.2聚類25
1.3.3結構化模式歸納26
1.4標註開發循環26
1.4 .1現象建模27
1.4.2按照規格說明進行標註30
1.4.3在語料庫上訓練和測試算法31
1.4.4對結果進行評價32
1.4.5修改模型和算法33
總結34
第2章確定目標與選擇數據36
2.1定義目標36
2.1.1目標陳述37
2.1.2提煉目標：信息量與正確性38
2.2背景研究43
2.2.1語言資源44
2.2.2機構與會議44
2.2.3自然語言處理競賽45
2.3整合數據集46
2.3.1理想的語料庫：代表性與平衡性47
2.3.2從因特網上收集數據47
2.3.3從人群中獲取數據48
2.4語料庫的規模49
2.4.1現有語料庫50
2.4. 2語料庫內部的分佈51
總結53
第3章語料庫分析54
3.1語料庫分析中的基本概率知識55
3.1.1聯合概率分佈56
3.1.2貝葉斯定理58
3.2計算出現次數58
3.2.1齊普夫定律（Zip'sLaw）61
3.2.2n元語法62
3.3語言模型63
總結65
第4章建立模型與規格說明66
4.1模型和規格說明示例66
4.1.1電影題材分類69
4.1.2添加命名實體70
4.1. 3語義角色71
4.2採用（或不採用）現有模型73
4.2.1創建模型和規格說明：一般性與特殊性74
4.2.2使用現有模型和規格說明76
4.2.3使用沒有規格說明的模型78
4.3各種標準78
4.3.1ISO標準78
4.3.2社區驅動型標準81
4.3.3影響標註的其他標準81
總結82
第5章選擇並應用標註標準84
5.1元數據標註：文檔分類85
5.1.1單標籤標註：電影評論85
5.1.2多標籤標註：電影題材87
5.2文本範圍標註：命名實體90
5.2.1內嵌式標註90
5.2.2基於詞例的分離式標註92
5.2.3基於字符位置的分離式標註95
5.3鏈接範圍標註：語義角色96
5.4ISO標準和你97
總結97
第6章標註與審核99
6.1標註項目的基本結構99
6.2標註規格說明與標註指南101
6.3準備修改102
6.4準備用於標註的數據103
6.4.1元數據103
6.4.2數據預處理104
6.4.3為標註工作分割文件104
6.5撰寫標註指南105
6.5.1例1：單標籤標註——電影評論106
6.5.2例2：多標籤標註——電影題材108
6.5.3例3：範圍標註——命名實體111
6.5.4例4：鏈接範圍標註——語義角色112
6.6標註人員114
6.7選擇標註環境116
6.8評價標註結果117
6.8.1Cohen的Kappa（κ）算法118
6.8.2Fleiss的Kappa（κ）算法119
6.8.3解釋Kappa係數122
6.8.4在其他上下文中計算κ值123
6.9創建黃金標準（審核）125
總結126
第7章訓練：機器學習129
7.1何謂學習130
7.2定義學習任務132
7.3分類算法133
7.3.1決策樹學習135
7.3.2樸素貝葉斯學習140
7.3.3最大熵分類器145
7.3.4其他需要了解的分類器147
7.4序列歸納算法148
7.5聚類和無監督學習150
7.6半監督學習150
7.7匹配標註與算法153
總結154
第8章測試與評價156
8.1測試算法157
8.2評價算法157
8.2.1混淆矩陣157
8.2.2計算評價得分159
8.2.3解釋評價得分163
8.3可能影響算法評價的問題164
8.3.1數據集太小164
8.3.2算法過於適合開發數據166
8.3.3標註中的信息過多166
8.4最後測試得分167
總結167
……
第9章修改與報告169
第10章標註：TimeML179
第11章自動標註：生成TimeML199
第12章後記：標註的未來發展趨勢217
附錄A可利用的語料庫與標註規格說明列表227
附錄B軟件資源列表249
附錄CMAE用戶指南269
附錄DMAI用戶指南276
附錄E參考文獻282

作者介紹

James Pustejovsky 教授是美國布蘭代斯（Brandeis University）大學計算機科學系和Volen國家綜合系統中心教授。先後在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。
Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括：計算語言學、詞彙語義學、知識表徵、話語語義學、時間推理和抽取等。已經出版多部專著。

面向機器學習的自然語言標註 (Natural language annotation for macbhine learning)

內容描述

目錄大綱

作者介紹

相關書籍

人人必學 網路行銷 -- 行動、社群、人工智慧、大數據

機器學習入門到實戰 — MATLAB 實踐應用

TensorFlow 2 Reinforcement Learning Cookbook: Over 50 recipes to help you build, train, and deploy learning agents for real-world applications

人人必學網路行銷 -- 行動、社群、人工智慧、大數據